ANÁLISE DA QUALIDADE DE VINHOS BRANCOS por LEONARDO MENDES

## 'data.frame':    4898 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 47 30 30 45 14 28 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 186 97 136 170 132 129 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.996 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
##  $ quality             : int  6 6 6 6 6 6 6 6 6 6 ...
##        X        fixed.acidity    volatile.acidity  citric.acid    
##  Min.   :   1   Min.   : 3.800   Min.   :0.0800   Min.   :0.0000  
##  1st Qu.:1225   1st Qu.: 6.300   1st Qu.:0.2100   1st Qu.:0.2700  
##  Median :2450   Median : 6.800   Median :0.2600   Median :0.3200  
##  Mean   :2450   Mean   : 6.855   Mean   :0.2782   Mean   :0.3342  
##  3rd Qu.:3674   3rd Qu.: 7.300   3rd Qu.:0.3200   3rd Qu.:0.3900  
##  Max.   :4898   Max.   :14.200   Max.   :1.1000   Max.   :1.6600  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.600   Min.   :0.00900   Min.   :  2.00     
##  1st Qu.: 1.700   1st Qu.:0.03600   1st Qu.: 23.00     
##  Median : 5.200   Median :0.04300   Median : 34.00     
##  Mean   : 6.391   Mean   :0.04577   Mean   : 35.31     
##  3rd Qu.: 9.900   3rd Qu.:0.05000   3rd Qu.: 46.00     
##  Max.   :65.800   Max.   :0.34600   Max.   :289.00     
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  9.0        Min.   :0.9871   Min.   :2.720   Min.   :0.2200  
##  1st Qu.:108.0        1st Qu.:0.9917   1st Qu.:3.090   1st Qu.:0.4100  
##  Median :134.0        Median :0.9937   Median :3.180   Median :0.4700  
##  Mean   :138.4        Mean   :0.9940   Mean   :3.188   Mean   :0.4898  
##  3rd Qu.:167.0        3rd Qu.:0.9961   3rd Qu.:3.280   3rd Qu.:0.5500  
##  Max.   :440.0        Max.   :1.0390   Max.   :3.820   Max.   :1.0800  
##     alcohol         quality     
##  Min.   : 8.00   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.40   Median :6.000  
##  Mean   :10.51   Mean   :5.878  
##  3rd Qu.:11.40   3rd Qu.:6.000  
##  Max.   :14.20   Max.   :9.000

O conjunto de dados de vinhos brancos consiste de 13 variáveis com quase 5.000 observações.

A variável X trata-se de um simples número sequencial para cada observação que não agrega valor para a análise e por isso será removida das análises seguintes.

Univariate Plots Section

## 
##    3    4    5    6    7    8    9 
##   20  163 1457 2198  880  175    5

A variável qualidade parece seguir uma distribuição normal com moda no valor 6 (mais de 2000 casos). Vamos agora verificar a distribuição das outras variáveis.

Vamos investigar a distribuição das características:

Com exceção de alcohol, a distribuição das outras variáveis apresentam outliers à direita.

Vamos plotar boxplots com os valores normalizados das variáveis para verificar a existência de outliers.

Conforme nossas observações no histograma, verificamos muitos outliers nas variáveis.

No gráfico de barras da quality, vimos alguns poucos vinhos com qualidade baixa (3 e 4) e outros vinhos com alta qualidade (8 e 9), seriam esses os responsáveis pelos outliers?

Primeiro vamos classificar os vinhos pela qualidade criando uma nova variável class no dataset.

## 
## baixa qualidade          normal  alta qualidade 
##             183            4535             180

Vamos verificar as características desses vinhos. Vinhos com baixa qualidade:

##  fixed.acidity    volatile.acidity  citric.acid     residual.sugar  
##  Min.   : 4.200   Min.   :0.110    Min.   :0.0000   Min.   : 0.700  
##  1st Qu.: 6.400   1st Qu.:0.260    1st Qu.:0.2050   1st Qu.: 1.350  
##  Median : 6.900   Median :0.320    Median :0.3000   Median : 2.700  
##  Mean   : 7.181   Mean   :0.376    Mean   :0.3077   Mean   : 4.821  
##  3rd Qu.: 7.650   3rd Qu.:0.460    3rd Qu.:0.4000   3rd Qu.: 7.500  
##  Max.   :11.800   Max.   :1.100    Max.   :0.8800   Max.   :17.550  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide
##  Min.   :0.01300   Min.   :  3.00      Min.   : 10.0       
##  1st Qu.:0.03750   1st Qu.:  9.00      1st Qu.: 85.5       
##  Median :0.04600   Median : 18.00      Median :119.0       
##  Mean   :0.05056   Mean   : 26.63      Mean   :130.2       
##  3rd Qu.:0.05400   3rd Qu.: 33.50      3rd Qu.:177.0       
##  Max.   :0.29000   Max.   :289.00      Max.   :440.0       
##     density             pH          sulphates        alcohol     
##  Min.   :0.9892   Min.   :2.830   Min.   :0.250   Min.   : 8.00  
##  1st Qu.:0.9926   1st Qu.:3.060   1st Qu.:0.380   1st Qu.: 9.40  
##  Median :0.9941   Median :3.160   Median :0.470   Median :10.10  
##  Mean   :0.9943   Mean   :3.183   Mean   :0.476   Mean   :10.17  
##  3rd Qu.:0.9960   3rd Qu.:3.285   3rd Qu.:0.540   3rd Qu.:10.80  
##  Max.   :1.0004   Max.   :3.720   Max.   :0.870   Max.   :13.50  
##              class    
##  baixa qualidade:183  
##  normal         :  0  
##  alta qualidade :  0  
##                       
##                       
## 

Vinhos com alta qualidade:

##  fixed.acidity   volatile.acidity  citric.acid     residual.sugar  
##  Min.   :3.900   Min.   :0.120    Min.   :0.0400   Min.   : 0.800  
##  1st Qu.:6.200   1st Qu.:0.200    1st Qu.:0.2800   1st Qu.: 2.075  
##  Median :6.800   Median :0.260    Median :0.3200   Median : 4.300  
##  Mean   :6.678   Mean   :0.278    Mean   :0.3282   Mean   : 5.628  
##  3rd Qu.:7.300   3rd Qu.:0.330    3rd Qu.:0.3600   3rd Qu.: 8.150  
##  Max.   :9.100   Max.   :0.660    Max.   :0.7400   Max.   :14.800  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide
##  Min.   :0.01400   Min.   :  6.00      Min.   : 59.0       
##  1st Qu.:0.03000   1st Qu.: 28.00      1st Qu.:102.8       
##  Median :0.03550   Median : 34.50      Median :122.0       
##  Mean   :0.03801   Mean   : 36.63      Mean   :125.9       
##  3rd Qu.:0.04400   3rd Qu.: 44.25      3rd Qu.:148.5       
##  Max.   :0.12100   Max.   :105.00      Max.   :212.5       
##     density             pH          sulphates         alcohol     
##  Min.   :0.9871   Min.   :2.940   Min.   :0.2500   Min.   : 8.50  
##  1st Qu.:0.9903   1st Qu.:3.127   1st Qu.:0.3800   1st Qu.:11.00  
##  Median :0.9916   Median :3.230   Median :0.4600   Median :12.00  
##  Mean   :0.9922   Mean   :3.221   Mean   :0.4857   Mean   :11.65  
##  3rd Qu.:0.9935   3rd Qu.:3.330   3rd Qu.:0.5825   3rd Qu.:12.60  
##  Max.   :1.0006   Max.   :3.590   Max.   :0.9500   Max.   :14.00  
##              class    
##  baixa qualidade:  0  
##  normal         :  0  
##  alta qualidade :180  
##                       
##                       
## 

Aparentement esses vinhos não são os responsáveis pelos desvios. Na análise bivariada poderemos investigar mais a fundo essa questão.

Para melhorar a visualização, vou plotar algumas variáveis removendo os outliers correspondendo aos 2% maiores valores.

A distribuição do residual.sugar é inclinada positivamente, o alcohol é bem irregular, todas as outras parecem ser normais. A distribuição chlorides ainda tem uma longa cauda à direita mesmo com a remoção dos extremos. Vamos aplicar uma transformação para melhorar a visualização.

Aplicando a transoformação log10, melhora a visualização da distribuição das variáveis.

Univariate Analysis

What is the structure of your dataset?

Existem 4898 vinhos com 12 variáveis relevantes (“fixed.acidity”, “volatile.acidity”, “citric.acid”, “residual.sugar”, “chlorides”, “free.sulfur.dioxide”, “total.sulfur.dioxide”, “density”, “pH”, “sulphates”, “alcohol”, “quality”).

A variável “quality” indica a qualidade do vinho numa escala de 0 a 10. Quanto maior a variável melhor a qualidade do vinho. A maior parte dos vinhos estão entre a qualidade 4 a 8, com alguns poucos exemplares nos extremos 3 e 9.

As outras variáveis apresentam muitos outliers mas a maioria segue uma distribuição normal, com exceção do alcohol e do residual.sugar.

What is/are the main feature(s) of interest in your dataset?

A principal característica é a qualidade dos vinhos. Eu gostaria de investigar quais características são as melhores para fazer a predição da qualidade do vinho branco. Acredito que a combinação de várias características afetem a qualidade do vinho.

What other features in the dataset do you think will help support your investigation into your feature(s) of interest?

Considero que a qualidade seja resultante da combinação de diversas características. Após realizar algumas pesquisas acredito que o teor alcoolico e a acidez são as características que podem mais contribuir para a qualidade dos vinhos.

Referência: http://revistaadega.uol.com.br/artigo/o-alcool-e-a-acidez_6055.html

Did you create any new variables from existing variables in the dataset?

Foi criada a variável classificação baseada na qualidade do vinho.

Qualidade Classificação
3-4 Baixa qualidade
6-7 Normal
8-9 Alta qualidade

Of the features you investigated, were there any unusual distributions? Did you perform any operations on the data to tidy, adjust, or change the form of the data? If so, why did you do this?

A variável alcohol possui uma distribuição bastante irregular. Após aplicar a transofrmação log10, a variável residual.sugar apresentou-se bimodal e a chlorides normal.

Bivariate Plots Section

A maior correlação da qualidade foi da variável alcohol com índice 0,44, considerada uma correlação moderada. Ao contrário do esperado, a acidez teve uma correlação fraca com a qualidade (0,11 e 0,19). A segunda maior correlação foi com densidade (-0,31). Interesante que a densidade também uma forte correlação com alcohol.

Vamos verificar os gráficos de caixas com as variáveis que tiveram maior correlação, alcohol e density.

## wine_data$class: baixa qualidade
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.40   10.10   10.17   10.80   13.50 
## -------------------------------------------------------- 
## wine_data$class: normal
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.40   10.30   10.48   11.30   14.20 
## -------------------------------------------------------- 
## wine_data$class: alta qualidade
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.50   11.00   12.00   11.65   12.60   14.00

## wine_data$class: baixa qualidade
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9892  0.9926  0.9941  0.9943  0.9960  1.0000 
## -------------------------------------------------------- 
## wine_data$class: normal
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9918  0.9938  0.9941  0.9962  1.0390 
## -------------------------------------------------------- 
## wine_data$class: alta qualidade
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9903  0.9916  0.9922  0.9935  1.0010

Com a variável alcohol é possível perceber a correlação entre as classes de qualidade (maior mediana para uma qualidade maior). Para a densidade a tendência é bem mais sútil mas é possível verificar que os vinhos de alta qualidade tem uma densidade menor.

Vamos verificar a correlação entre alcohol e densidade utilizando um gráfico de dispersão.

No gráfico podemos observar a forte correlação entre as variáveis. Quanto menor o nível alcoolico maior a densidade.

## 
## Call:
## lm(formula = quality ~ alcohol, data = wine_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.5317 -0.5286  0.0012  0.4996  3.1579 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.582009   0.098008   26.34   <2e-16 ***
## alcohol     0.313469   0.009258   33.86   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7973 on 4896 degrees of freedom
## Multiple R-squared:  0.1897, Adjusted R-squared:  0.1896 
## F-statistic:  1146 on 1 and 4896 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = quality ~ density, data = subset(wine_data, density <= 
##     quantile(wine_data$density, 0.99)))
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.1655 -0.5940 -0.0071  0.5463  3.4260 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  105.531      4.226   24.97   <2e-16 ***
## density     -100.257      4.252  -23.58   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8399 on 4847 degrees of freedom
## Multiple R-squared:  0.1029, Adjusted R-squared:  0.1027 
## F-statistic: 555.9 on 1 and 4847 DF,  p-value: < 2.2e-16

Verificando o coeficiente de determinação vemos que mesmo as variáveis com maior correlação não explicam muito a qualidade. O alcohol explica 19% enquanto que a densidade 10%. Isso reforça a ideia de que a qualidade é explicada por vários fatores em conjunto.

Um ponto que achei intrigante foi a correlação entre a acidez fixa e volátil ter sido tão baixa (-0,02). Esperava uma correlação bem maior. Vamos plotar o gráfico de dispersão das variáveis para verificar melhor.

Pelo gráfico as variáveis parecem estar bem correlacionadas mas não seguem uma relação linear.

Mesmo o free.sulfur.dioxide e total.sulfur.dioxide apresentam uma correlação menor que o esperado (0,62). Esperava uma correlação muito forte entre as duas características. Vamos plotar o gráfico de dispersão entre as variáveis.

No gráfico é possível verificar uma relação linear mas com bastante ruído.

Por último gostaria de verificar se os valores outliers das variáveis são relacionados com a qualidades extremas dos vinhos.

Vamos visualizar o histograma de algumas características com cores diferentes por qualidade. Como as quantidades das qualidades extremas são pequenas, foi dado zoom para mostrar quantidades até 100 observações no segundo gráfico.

Pelos gráficos, parece que não são os vinhos com qualidade nos extremos os responsáveis pelo outliers nas observações.

Bivariate Analysis

Talk about some of the relationships you observed in this part of the investigation. How did the feature(s) of interest vary with other features in the dataset?

A maior correlação da qualidade foi da variável alcohol com índice 0,44, considerada uma correlação moderada. Ao contrário do esperado, a acidez teve uma correlação fraca com a qualidade (0,11 e 0,19). A segunda maior correlação foi com densidade (-0,31). Interesante que a densidade também uma forte correlação com alcohol.

Vinhos com maior considerados de maior qualidade tem um maior teor alcoolico. Já a densidade é inversamente proporcional a qualidade, quanto maior a densidade menor a qualidade.

As duas variáveis com maior correlação com a qualidade, alcohol e density, explicam apenas 19% e 10% da qualidade. Isso reforça a ideia de que a qualidade é explicada por vários fatores em conjunto.

Os desvios encontrados nas variáveis que representam as características dos vinhos não são originados somente dos vinhos com qualidades extremas (alta ou baixa).

Did you observe any interesting relationships between the other features (not the main feature(s) of interest)?

Densidade e alcool apresentam a maior correlação linear entre as variáveis com índice -0.78.

Acidez física e volátil possuem uma baixa correlação linear mas pelo gráfico é possível perceber que há uma correlação não linear.

Free.sulfur.dioxide e total.sulfur.dioxide apresentam uma correlação linear de 0,62. Pelo gráfico podemos observar que apesar de observar uma tendência linear, há muito ruído na relação.

What was the strongest relationship you found?

A variável com maior correlação linear com a qualidade foi alcohol com índice 0,44. É um tanto surpreendente pois não esperava que o teor alcoolico tivesse tanta influência na qualidade. Como é uma correlação positiva isso indica que quanto maior o teor alcool melhor a qualidade. Mesmo assim é uma correlação apenas moderada. Isso indica que a qualidade é melhor explicada por uma combinação de vários fatores.

Multivariate Plots Section

As retas em azul no gráfico representam a média da variável.

## 
## Calls:
## m1: lm(formula = quality ~ alcohol, data = dataset)
## m2: lm(formula = quality ~ alcohol + density, data = dataset)
## m3: lm(formula = quality ~ alcohol + density + chlorides, data = dataset)
## m4: lm(formula = quality ~ alcohol + density + chlorides + volatile.acidity, 
##     data = dataset)
## m5: lm(formula = quality ~ alcohol + density + chlorides + volatile.acidity + 
##     total.sulfur.dioxide, data = dataset)
## m6: lm(formula = quality ~ ., data = dataset)
## 
## ================================================================================================
##                            m1          m2          m3          m4          m5          m6       
## ------------------------------------------------------------------------------------------------
##   (Intercept)            2.582***  -22.492***  -21.150***  -35.573***  -30.759***   150.193***  
##                         (0.098)     (6.165)     (6.162)     (6.010)     (6.295)     (18.804)    
##   alcohol                0.313***    0.360***    0.343***    0.389***    0.391***     0.193***  
##                         (0.009)     (0.015)     (0.015)     (0.015)     (0.015)      (0.024)    
##   density                           24.728***   23.671***   38.217***   33.251***  -150.284***  
##                                     (6.079)     (6.074)     (5.926)     (6.234)     (19.075)    
##   chlorides                                     -2.382***   -1.300*     -1.370*      -0.247     
##                                                 (0.558)     (0.542)     (0.543)      (0.547)    
##   volatile.acidity                                          -2.043***   -2.070***    -1.863***  
##                                                             (0.111)     (0.111)      (0.114)    
##   total.sulfur.dioxide                                                   0.001*      -0.000     
##                                                                         (0.000)      (0.000)    
##   fixed.acidity                                                                       0.066**   
##                                                                                      (0.021)    
##   citric.acid                                                                         0.022     
##                                                                                      (0.096)    
##   residual.sugar                                                                      0.081***  
##                                                                                      (0.008)    
##   free.sulfur.dioxide                                                                 0.004***  
##                                                                                      (0.001)    
##   pH                                                                                  0.686***  
##                                                                                      (0.105)    
##   sulphates                                                                           0.631***  
##                                                                                      (0.100)    
## ------------------------------------------------------------------------------------------------
##   R-squared                 0.190      0.192       0.195       0.248       0.249        0.282   
##   adj. R-squared            0.190      0.192       0.195       0.247       0.248        0.280   
##   sigma                     0.797      0.796       0.795       0.768       0.768        0.751   
##   F                      1146.395    583.290     396.315     402.956     324.034      174.344   
##   p                         0.000      0.000       0.000       0.000       0.000        0.000   
##   Log-likelihood        -5839.391  -5831.127   -5822.011   -5657.292   -5654.027    -5543.740   
##   Deviance               3112.257   3101.773    3090.247    2889.234    2885.385     2758.329   
##   AIC                   11684.782  11670.255   11654.021   11326.584   11322.054    11113.480   
##   BIC                   11704.272  11696.241   11686.504   11365.563   11367.530    11197.936   
##   N                      4898       4898        4898        4898        4898         4898       
## ================================================================================================

Multivariate Analysis

Talk about some of the relationships you observed in this part of the investigation. Were there features that strengthened each other in terms of looking at your feature(s) of interest?

Os vinhos de melhor qualidade encontram-se no quadrante superior esquerdo do gráfico alcohol x density. Isso confirma a observação de que quanto maior o teor alcoolico e menor a densidade, melhor o vinho. Poŕem mesmo assim ainda é possível observar bastante ruído com bastante vinhos de baixa qualidade no mesmo quadrante superior esquerdo e também vinhos de alta qualidade no quadrante oposto (inferior direito).

Em relação ao gráfico volatile.acidity x fixed.acidity é possível observar que os vinhos de alta e também de baixa qualidade tendem a afastarem-se do centro das médias. Ficando o centro populado em sua maioria pelos vinhos normais.

No gráfico total.sulfur.dioxide x free.sulfur.dioxido observei que no quadrante inferior direito há apenas um vinho de baixa qualidade e quantidades similares distribuídas pelo outros quadrantes.

Were there any interesting or surprising interactions between features?

Achei interessante o fato de vinhos com maior teor alcoolico tenderem a ter uma maior qualidade.

Também fiquei surpreso com a correlação não linear entre a volatile.acidity e fixed.acidity, com os vinhos de alta e baixa qualidade tendendo a ficar fora do centro.

OPTIONAL: Did you create any models with your dataset? Discuss the strengths and limitations of your model.

Foi criado um modelo linear e analisada a influência das variáveis na descrição da qualidade dos vinhos. O modelo não conseguiu atingir uma boa descrição da qualidade, mesmo incluindo todas as variàveis disponíveis apenas 28% da qualidade é descrita. Isso leva a uma conclusão que é necessário um modelo mais complexo do que um simples modelo linear. Como visto por exemplo entre as variáveis volatile.acidity e fixed.acidity parece exisitir uma correlação não-linear forte. Outros tipos de modelos poderiam ser explorados.


Final Plots and Summary

Plot One

Description One

A distribuição de vinhos por qualidade parece ser normal com moda no valor 6 com mais de 2.000 vinhos. Para uma melhor organização os vinhos foram agrupados em 3 classificações: Baixa Qualidade (3 e 4), Normal (5 a 7) e Alta Qualidade (8 e 9). As classes baixa e alta qualidade tem quantidades semelhantes.

Plot Two

Description Two

As duas variáveis que tiveram mais correlação linear com a qualidade foram o alcool e a densidade. Pelos boxplots é possível observar que quanto maior o teor alcoolico maior a qualidade e que a densidade tem uma correlação inversa e mais sutil, quanto menor a densidade maior a qualidade.

Plot Three

Description Three


Reflection